202310.00290v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


ibd 用 


从 ChatGPT 爆 火 的 必然 性 ， 
揭 开 背后 的 Al 技术 发 展现 状 


徐 桢 虎 
( 四 川 封面 传媒 科技 有 限 责任 公司 ， 四川 成 都 610000 ) 


的 发 展 说 起 ， 详 述 其 背后 的 各 项 AI 技术 发 展 情况 。 


下 一 个 时 代 的 机 会 。 
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摘要 : 【 目的】 近期 ChatGPT 成 为 人 工 智 能 领域 的 一 个 热门 话题 ， 因 其 出 色 的 语言 生成 技术 而 受到 广泛 关注 ， 
能 够 通过 学 习 和 理解 人 类 的 语言 来 进行 对 话 。ChatGPT 的 横 空 出 世 ， 对 谷歌 、 百 度 等 科技 巨头 而 言 很 焦虑 ， 但 
ChatGPT 的 冲击 力 不 仅 止 于 此 。 文 章 旨 在 探讨 它 带 来 了 新 一 轮 的 AI 技术 范式 革新 。【 方法 】 文 章 从 聊天 机 器 人 


【 结果 】 总 结 ChatGPT 在 未 来 存在 的 机 会 与 挑战 。【 结论 】 
ChatGPT 的 热潮 带 来 的 是 人 们 对 通用 人 工 智 能 发 展 的 期 望 。 谁 的 适应 能 力 更 强 ， 能 快速 拥抱 这 个 趋势 ， 就 能 抓 住 
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1. 对 话机 器 人 的 前 世 今 生 
1.1 对 话机 器 人 的 起 源 

谈 到 对 话机 器 人 的 发 展 历史 ， 必 须 提 及 著名 的 图 
灵 测 试 。1950 年 ， 被 称 为 “人 工 智能 之 父 ” 的 数学 家 
图 灵 发 表 了 论文 《计算 机 器 与 智能 》， 首 次 提出 了 对 
人 工 智能 的 评价 准则 ， 即 图 灵 测 试 。 测 试 者 和 被 测试 
者 通常 是 一 个 人 和 一 台 机 器 ,通过 一 些 装 置 进行 交流 。 
如 果 有 超过 30% 的 测试 者 不 能 区 分 哪些 问题 是 由 人 还 
是 机 表 回 答 的 ， 那么 机 器 通过 测试 ， 证 明 机 器 具有 了 
一 定 的 人 类 智慧 。 尽 管 目前 用 图 灵 测 试 评测 对 话 系 统 
存在 争议 ， 但 图 灵 测 试 的 思路 引领 了 几 十 年 间 人 工 智 
能 对 话 系统 的 发 展 。 对 话机 器 人 是 人 工 智 能 领域 的 一 
个 重要 分 支 ， 随 着 人 工 智能 技术 的 不 断 进 步 ， 对 话机 
器 人 也 经 历 了 多 个 发 展 阶段 。 

第 一 阶段 是 早期 的 规则 和 模板 对 话机 器 人 。 在 
人 工 智 能 领域 的 早期 ， 对 话机 器 人 主要 是 基于 规则 
和 模板 进行 设计 和 实现 的 。 这 种 机 器 人 需要 开发 人 
员 手 动 编写 规则 和 模板 ， 然 后 根据 用 户 的 输入 进行 
匹配 和 回答 。 由 于 规则 和 模板 缺乏 灵活 性 ， 这 种 机 
器 人 往往 只 能 应 对 特定 场景 的 对 话 ， 无 法 处 理 更 广 
泛 的 对 话 场景 。 

第 二 阶段 是 基于 统计 机 器 学 习 的 对 话机 器 人 。 随 


着 机 需 学 习 技 术 的 发 展 ， 基 于 统计 机 器 学 习 的 对 话机 
需 人 逐渐 兴起 。 这 种 机 器 人 利用 自然 语言 处 理 、 机 需 
学 习 等 技术 对 用 户 输入 进行 分 析 和 处 理 ， 然 后 根据 历 
史 数 据 和 模型 预测 生成 回答 。 由 于 可 以 利用 历史 数据 
和 模型 进行 学 习 和 预测 ， 这 种 机 器 人 的 应 对 能 力 比 基 
于 规则 和 模板 的 机 器 人 更 强大 。 

第 三 阶段 是 基于 深度 学 习 的 对 话机 器 人 。 近 年 
来 ， 随 着 深度 学 习 技 术 的 发 展 ， 基 于 深度 学 习 的 对 话 
机 需 人 逐渐 崛起 。 这 种 机 器 人 通过 对 大 规模 语料库 
进行 学 习 ， 自 动 学 习 生 成 回答 的 模式 和 规律 ， 可 以 处 
理 更 复杂 的 对 话 场景 和 用 户 输 入 情况 。 其 中 ， 基 于 
Transformer 架构 的 预 训 练 语 言 模 型 ， 如 BERT、GPT 
等 被 广泛 应 用 于 对 话机 需 人 的 设计 和 实现 ， 可 以 呈现 
更 自然 、 流 畅 和 准确 的 对 话 回答 。 

对 话机 器 人 经 历 了 从 基于 规则 和 模板 到 基于 统计 
机 需 学 习 ， 再 到 基于 深度 学 习 的 演进 过 程 。 此 时 期 ， 
基于 机 带 学 习 来 进行 自然 语言 理解 的 方法 百花 齐 放 。 
但 随 着 后 来 的 发 展 ， 传 统 的 机 融 学 习 迪 到 了 瓶 虎 ， 特 
别 是 在 语音 识别 和 图 像 分 类 方面 准确 率 无 法 提高 。 因 
此 ， 在 第 三 代 的 研究 中 ， 这 些 系 统 基 本 上 转向 了 基于 
大 数据 和 深度 学 习 的 技术 ， 如 Amazon Alexa、 天 猫 精 
灵 和 Siri 等 助手 类 机 器 人 。 它 们 主要 采用 深度 学 习 方 
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法 , 即 意图 识别 和 语言 理解 的 方式 。 基 于 深度 学 习 技 术 ， 
使 得 端 到 端的 对 话 系统 变 得 可 行 。 
1.2 ChatGPT 与 传统 对 话机 器 人 的 区 别 

传统 对 话机 器 人 通常 是 基于 规则 或 模板 进行 设计 
和 实现 的 ， 后 期 加 入 了 语义 分 析 和 理解 等 自然 语言 处 理 
的 技术 。 传 统 对 话机 器 人 在 与 用 户 进行 交互 时 ， 首 先 通 
过 预 设 的 规则 或 模板 匹配 用 户 的 输入 ， 然 后 根据 匹配 结 
果 返 回 相 应 的 回答 .本 质 上 说 还 算 按照 搜索 的 思路 在 做 ， 
因此 生成 的 回答 给 用 户 感觉 会 是 拼凑 感 多 。 这 种 方法 的 
优点 是 实现 简单 、 速 度 快 ， 但 缺点 是 需要 大 量 的 手动 工 
作 来 编写 规则 和 模板 ， 并 且 很 难 覆 盖 所 有 的 对 话 场景 和 
用 户 输入 。 封 面 新 闻 算 是 国内 媒体 做 对 话机 器 人 最 早 的 
几 家 ， 那 时 候 基 本 也 是 基于 这 个 思路 。 业 界 技术 没有 突 
破 。 在 应 用 上 也 很 难 更 进一步 。" 

ChatGPT 则 是 基于 深度 学 习 技 术 的 对 话 生 成 模型 。 
与 传统 对 话机 器 人 不 同 的 是 ，ChatGPT 不 需要 预先 编 
写 规则 或 模板 ， 而 是 通过 对 大 规模 语料库 的 学 习 ， 自 
动 学 习 生 成 回答 的 模式 和 规律 。 因 此 ， 这 类 模型 可 以 
在 更 广泛 的 对 话 场景 和 用 户 输入 情况 下 提供 更 自然 、 
流畅 和 准确 的 回答 。 此 外 , 它 还 可 以 进行 上 下 文理 解 ， 
能 根据 之 前 的 对 话 历史 生成 更 连贯 的 回答 ， 因 此 用 户 
的 体验 更 加 良好 。 

因此 ， 传 统 对 话机 器 人 与 ChatCPT 的 主要 区 别 在 
于 实现 方式 和 能 力 范 围 。 传 统 对 话机 带 人 是 基于 规则 
或 模板 ， 需 要 手动 编写 ， 适 用 于 少量 场景 和 固定 对 话 
流程 ， 而 ChatGPT 是 基于 深度 学 习 技 术 ， 自 动 学 习 回 
答 的 模式 和 规律 ， 适 用 于 更 广泛 的 对 话 场 景 和 用 户 输 
入 情况 。 
1.3 ChatGPT 全 球 爆 火 的 核心 原因 

为 什么 ChatGPT 能 够 在 全 世界 引起 如 此 广泛 的 关 
注 ， 对 普通 人 来 说 最 主要 的 原因 是 ，ChatCPT 在 一 定 
程度 上 满足 了 很 多 人 对 影视 中 出 现 的 AI 想象 。 它 能 够 
通过 学 习 和 理解 人 类 的 语言 来 进行 对 话 ， 还 能 根据 聊 
天 内 容 的 上 下 文 进行 互动 ， 像 人 一 样 来 沟通 交流 。 

可 能 源 于 人 们 对 人 工 智能 技术 的 期 望 往往 高 于 实 
际 能 力 ， 以 往 出 现 的 那些 人 机 交互 类 型 的 AI 产品 ， 比 
如 聊天 机 器 人 人、 自动 驾 驶 系统 、 智 能 家 居 设 备 ， 由 于 
表现 不 佳 、 结 果 不 准确 或 不 可 靠 , 常常 被 用 户 称 为 “人 
工 智障 ”。 而 ChatGPT 看 起 来 像 是 真 的 有 了 自己 的 思想 ， 
就 像 是 流浪 地 球 2 中 的 MOSS 系统 。 用 户 问 什么 它 都 
可 以 给 出 相对 满意 的 答案 。 
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2. 从 技术 层面 如 何 解读 ChatGPT 
2.1 对 Al 研究 发 展 的 意义 

作为 一 个 大 型 的 自然 语言 处 理 (NLP ) 模型 ， 
ChatGPT 可 以 在 许多 方面 对 人 工 智 能 研究 的 发 展 产 生 
影响 。 主 要 有 以 下 三 个 方面 。 

2.1.1 推动 自然 语言 处 理 的 发 展 

ChatGPT 是 自然 语言 处 理 领 域 的 一 项 重要 技术 ， 
可 以 帮助 处 理 自然 语言 文本 中 的 语义 、 上 下 文 等 方面 
的 问题 。 在 未 来 ， 这 些 技术 有 望 进一步 发 展 ， 使 得 机 
顺 能 够 更 好 地 理解 自然 语言 ， 并 能 够 进行 更 加 复杂 的 
任务 ， 如 自然 语言 推理 、 文 本 生成 等 。 

2.1.2 推动 大 模型 在 深度 学 习 的 应 用 

ChatGPT 的 背后 是 基于 Transformer 的 模型 结构 ， 
它 是 深度 学 习 领 域 的 一 个 重要 技术 。ChatGPT 的 成 功 
证 明了 大 模型 在 自然 语言 处 理 领域 的 有 效 性 ， 也 为 研 
究 者 提供 了 其 他 人 工 智能 领域 新 的 思路 ， 从 而 推动 了 
机 器 学 习 和 深度 学 习 的 发 展 。 

2.1.3 提高 人 机 交互 的 效率 

ChatGPT 可 以 用 于 开发 更 高 效 的 对 话 系统 ， 从 而 
改善 人 机 交互 的 体验 。 例 如 ，ChatGPT 可 以 帮助 机 器 
人 或 虚拟 助手 更 好 地 理解 和 回应 人 类 的 语言 ， 从 而 更 
准确 地 满足 用 户 需 求 。 

所 以 ， 当 ChatGPT 出 现时 ， 内 行 的 震惊 程度 比 外 
行 更 高 ， 因 为 知道 这 样 的 提升 是 非常 困难 的 。AI 算 法 
科研 领域 正经 历 算法 、 开 源 代 码 、 工 程 、 算 力 的 增长 
飞轮 ，ChatGPT 所 代表 的 大 模型 的 创建 和 学 习 能 力 会 
成 为 新 的 流行 方向 。 而 且 可 以 预见 ， 更 多 这 类 大 模型 
会 雨后春笋 一 般 快速 出 现 。 总 的 来 说 ，ChatGPT 代表 
了 人 工 智能 领域 中 的 重要 突破 ， 通 过 不 断 地 改进 和 应 
用 ，ChatGPT 将 有 望 为 人 工 智能 研究 的 发 展 带 来 更 多 
的 贡献 。 

2.2 技术 层面 的 革新 

ChatGPT 带 来 了 新 一 轮 的 AI 技术 范式 革新 ， 意 
味 着 业内 期 望 已 久 的 通用 人 工 智 能 应 用 开始 出 现 。 
ChatGPT 的 横 空 出 世 ， 使 谷歌 、 百 度 等 科技 巨头 非常 
焦虑 ， 但 它 的 冲击 力 不 仅 止 于 此 。 它 真正 让 所 有 人 都 
感到 吃惊 的 是 背后 大 语言 模型 (LLM ) 的 创建 和 学 习 
能 力 。 

很 多 人 对 ChatGPT 的 了 解 还 仅仅 限于 它 是 一 个 
更 智能 的 聊天 机 器 人 。 但 实际 上 其 对 技术 层面 的 革 
新 重点 在 于 “GPT” 而 不 是 “Chat”。 目 前 最 流行 的 
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Transformer 核心 架构 大 语言 模型 包括 GPT 和 BERT 两 
种 ， 在 说 大 模型 之 前 先 了 解 一 下 Transformer 架构 。 它 
与 RNN (Recurrent Neural Network ) 架构 是 在 自然 语言 
处 理 领 域 中 经 常用 于 处 理 序列 数据 的 两 种 架构 。 但 是 
Transformer 支持 千 亿 级 参数 的 超大 规模 数据 量 ，RNN 
则 承载 不 了 这 么 大 的 数据 量 。RNN 中 的 每 个 时 间 步 都 
需要 等 待 前 一 个 时 间 步 的 计算 结果 ， 因 此 模型 的 并 行 
性 较 差 。Transformer 可 以 并 行 计 算 ， 通 过 自 注意 力 机 
制 来 处 理 序列 数据 ， 可 以 同时 处 理 整个 序列 。 

BERT 和 GPT 都 是 非常 强大 的 大 语言 模型 ， 在 
不 同 的 任务 和 场景 中 都 有 对 应 很 好 的 表现 。BERT 是 
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型 ， 同 时 在 引入 的 强化 学 习 机 制 上 取得 了 突破 ， 并 
且 在 数据 质量 和 多 样 性 上 也 非常 讲究 。 光 是 基础 模 
型 本 身 的 差距 ， 虽然 国 内 外 也 训练 了 很 多 万 亿 模 型 
或 者 是 几 千 亿 的 模型 ， 但 训练 的 充分 程度 是 远 远 不 
够 的 。 有 人 用 同样 的 问题 向 某 大 型 AI 厂商 的 大 模型 
和 ChatGPT 发 问 ，ChatGPT 从 回答 的 逻辑 性 和 完整 
度 上 都 远 超 对 手 。 
2.3 数据 集 的 构成 

除了 大 模型 的 加 持 ，ChatGPT 的 对 话 表现 很 大 程 
度 上 取决 于 它 所 使 用 的 数据 集 。 数 据 集 提 供 了 模型 训 
练 和 评估 所 需 的 输入 和 输出 数据 。 在 训练 ChatGPT 模 


基于 转移 学 习 的 思想 开发 的 ， 主 要 用 于 解决 语言 理 
解 相 关 的 任务 ， 如 问答 、 语 义 关系 抽取 等 。GPT 则 
是 基于 生成 式 预 训练 的 思想 开发 的 ， 主 要 用 于 解决 
语言 生成 相关 的 任务 ， 如 文本 生成 、 机 器 翻译 等 。 
在 使 用 场景 上 ，BERT 更 适用 于 在 已 有 标注 数据 上 微 
调 的 场景 ，GPT 更 适用 于 在 大 量 未 标注 数据 上 预 训 
练 的 场景 。 简 言 之 ，GPT 是 做 下 文 预测 ，BERT 是 做 
整 句 预测 。 

然而 OpenAI 的 GPT 系列 模型 并 没有 开源 。 
基于 文本 预 训练 的 GPT 前 三 代 模 型 都 是 采用 的 以 
Transformer 为 核心 结构 的 模型 ， 不 同 的 是 模型 的 层 数 
和 词 向 量 长 度 等 超 参 。GPT-_3 被 提出 时 ， 除 了 它 远 超 
GPT-2 的 效果 , 引起 更 多 讨论 的 是 它 1750 亿 的 参数 量 。 
GPT-3 的 训练 使 用 了 情境 学 习 ， 它 是 元 学 习 的 一 种 ， 
其 核心 思想 在 于 通过 少量 的 数据 寻找 一 个 合适 的 初始 
化 范围 ， 使 得 模型 能 够 在 有 限 的 数据 集 上 快速 拟 合 ， 
并 获得 不 错 的 效果 。 人 类 喜欢 的 不 仅 包 括 生成 内 容 的 
流畅 性 和 语法 的 正确 性 ， 还 包括 生成 内 容 的 有 用 性 、 
真实 性 。 强 化 学 习 的 思路 是 通过 对 奖励 的 大 量 采 样 来 
拟 合 损失 函数 ， 从 而 实现 模型 的 训练 。 同 样 人 类 反馈 
也 是 不 可 导 的 ， 那 么 我 们 也 可 以 将 人 工 反馈 作为 强化 
学 习 的 奖励 ， 基 于 人 工 反馈 的 强化 学 习 便 应 运 而 生 。 
中 如 果 把 对 话机 器 人 的 优化 比喻 成 一 个 人 在 进行 知识 
学 习 的 话 ， 传 统 对 话机 器 人 以 前 是 在 幼儿 园 阶段 就 学 


型 时 ， 需 要 大 量 的 文本 数据 来 训练 模型 ， 使 其 能 够 学 
习 语 言 模式 和 规律 ， 从 而 具有 语义 理解 和 生成 能 
训练 数据 集 的 质量 和 数量 对 模型 的 性 能 和 表现 至 关 重 
要 。 通 常 ， 训 练 数据 集 越 大 、 多 样 化 和 质量 越 高 ， 模 
型 的 性 能 和 泛 化 能 力 就 越 好 。 

因此 ， 数 据 集 对 ChatGPT 模型 的 性 能 和 表现 具有 
非常 重要 的 影响 。 一 个 好 的 数据 集 应 该 具有 充分 的 数 
据 量 、 多 样 化 的 文本 类 型 和 质量 高 的 数据 标注 。 截 至 
2023 年 2 月 ， 绝 大 部 分 用 户 能 接触 到 的 ChatGPT 是 采 
用 的 GPT-3.5 模型 ， 但 目前 公开 资料 能 找到 关于 其 模 
型 数据 集 构成 的 信息 主要 来 自 OpenAI 于 2020 年 发 布 
的 GPT-3 模型 论文 。 其 论文 前 明了 所 用 训练 数据 集 的 
token 数量 ， 但 训练 数据 集 的 内 容 和 大 小 尚 不 清楚 。 该 
数据 集 包 含 了 多 种 来 源 的 文本 数据 ， 如 维基 百科 、 新 
闻 、 书籍、 社交 媒体 等 ,这 些 数据 集 经 过 处 理 和 清洗 ， 
以 便 用 于 预 训练 模型 。 数 据 集 针 对 不 同 的 应 用 场景 和 
目的 而 设计 ， 主 要 包括 : 

维基 百科 ( Wikipedia ) : 是 一 个 免费 的 多 语言 协 
作 在 线 百 科 全 书 。 维 基 百 科 中 的 文本 很 有 价值 ， 因 为 
它 被 严格 引用 ， 以 说 明 性 文字 形式 写成 ， 并 且 跨 越 多 
种 语言 和 领域 。 一 般 来 说 ， 重 点 研究 实验 室 会 首先 选 
取 它 的 纯 英文 过 滤 版 作为 数据 集 。 

书籍 ( Books ) : 由 小 说 和 非 小 说 两 大 类 组 成 ， 主 
要 用 于 训练 模型 的 故事 讲述 能 力 和 反应 能 力 ， 数 据 集 


习 某 类 专科 知识 就 进行 训练 ， 而 ChatGPT 是 先 学 习 完 
所 有 大 学 知识 ， 再 进行 训练 。 

在 ChatGPT 推出 之 前 , 国内 外 已 有 不 少 大 模型 。 
但 相 比 其 他 大 模型 ，ChatGPT 在 AI 的 技术 路 线 和 训 
练 方式 上 的 变革 ， 带 来 了 业界 意料 之 外 的 突破 。 包 
括 有 一 个 非常 强大 的 技术 底座 ， 即 InstructGPT 模 


包括 Project Gutenberg 和 Smashwords 等 。 

杂志 期 刊 (Journals ) : 预 印 本 和 已 发 表 期 刊 中 的 
论文 为 数据 集 提供 了 坚实 而 严 并 的 基础 ， 因 为 学 术 写 
作 通 常 来 说 更 有 条 理 更 细致 。 

Reddit 链接 : WebText 是 一 个 大 型 数据 集 ， 它 
的 数据 是 从 社交 媒体 平台 Reddit 所 有 出 站 链接 网 络 
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中 疏 取 的 ， 每 个 链接 至 少 有 3 个 赞 ， 代 表 了 流行 内 
容 的 风向 标 ， 对 输出 优质 链接 和 后 续 文 本 数据 具有 
指导 作用 。 

Common Crawl (CC ) : 是 2008 年 至 今 的 一 个 网 
站 抓 取 的 大 型 数据 集 ， 数 据 包含 原始 网 页 、 元 数据 和 
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偏差 。 此 外 ， 逻 辑 的 解释 和 使 用 也 可 能 因 特 定 的 上 下 
文 和 语 境 而 发 生变 化 ， 这 对 ChatGPT 说 来 可 能 会 带 来 
一 定 的 挑战 和 限制 。 因 此 ， 虽 然 可 以 使 用 逻辑 语言 和 
形式 ， 但 能 力 和 表现 仍然 受到 许多 因素 的 影响 ， 并 不 
能 与 人 类 的 逻辑 思维 能 力 完 全 媲美 。 巡 外 ， 有 时 候 用 


文本 提取 ， 它 的 文本 来 自 不 同 语言 、 不 同 领域 。 重 点 
研究 实验 室 一 般 会 首先 选取 它 的 纯 英 文 过 滤 版 (C4) 
作为 数据 集 。 

其 他 数据 集 ( Other ) : 不 同 于 上 述 类 别 ， 这 类 数 
据 集 由 GitHub 等 代码 数据 集 、StackExchange 等 对 话 
论坛 和 视频 字幕 数据 集 组 成 。 


Wikipedia Books Journals Reddit links CC Other Total 
GB 11.4 21 101 50 570 753 


Tokens 3 12 55 19 410 499 


图 1 GPT-3 数 据 集 总 结晶 
国内 大 型 互联 网 公司 没有 率先 做 出 类 似 ChatGPT 
的 应 用 ， 除 了 OpenAI 相关 技术 领先 的 原因 ， 国 内 做 


3 会 在 主观 上 觉得 答案 结果 不 够 准确 ， 可 能 更 主要 的 
原因 在 于 问题 描述 不 够 准确 ， 对 它 来 说 只 能 是 当前 语 
境 下 的 最 优 答案 。 
2.5 目前 存在 的 问题 

得 益 于 ChatGPT 背后 最 先进 的 GPT3.5 大 模型 ， 
它 的 绝 大 部 分 回答 在 数据 集 时 间 范 围 内 都 是 准确 的 ， 
因此 普通 用 户 并 不 知道 它 的 运作 机 制 ， 会 倾向 于 认为 
它 无 所 不 知 。ChatGPT 可 能 会 以 一 种 非常 自信 的 口吻 
来 编造 事实 ， 这 是 一 个 大 问题 。 

目前 主要 有 三 类 问题 : 

(1 ) 结果 不 稳定 。 这 会 导致 对 结果 准确 性 要 求 高 
的 业务 无 法 直接 应 用 ， 需 要 人 工 审核 ， 更 多 是 作为 辅 


AI 应 用 拿 不 到 足够 多 领域 的 数据 ， 这 也 是 另外 一 个 重 


助 应 用 或 应 用 于 娱乐 性 强 的 场景 。 


要 原因 。 国 外 的 绝 大 部 分 应 用 都 有 网 页 版 数据 可 以 采 
集 。 国 内 互联 网 内 卷 严 重 的 环境 导致 了 大 型 App 应 用 
的 数据 孤岛 。 

但 ChatGPT 在 中 文 的 识别 效果 也 很 不 错 ， 这 是 
因为 在 训练 ChatGPT 的 大 型 语言 数据 集中 ， 也 包含 
了 大 量 的 中 文 文本 。 这 些 文本 包括 新 闻 、 社 交 媒 体 、 
百科 全 书 、 小 说 等 ， 经 过 处 理 和 清洗 后 ， 被 用 于 训练 
ChatGPT 模型 。 因 此 ，ChatGPT 在 处 理 中 文 文本 时 ， 
可 以 利用 这 些 训练 数据 中 的 中 文 语言 模式 和 规律 ， 从 
而 获得 对 中 文 的 语义 理解 和 生成 能 力 。 

此 外 ，ChatGPT 采用 了 预 训 练 一 微调 的 方法 ， 即 
在 大 规模 数据 集 上 预先 训练 语言 模型 ， 然 后 通过 微调 
来 适应 特定 的 任务 和 领域 。 在 微调 过 程 中 ，ChatGPT 
可 以 通过 训练 样本 来 进一步 调整 模型 参数 ， 以 适应 
特定 的 语言 和 任务 ,包括 中 文 语言 和 任务 。 这 使 得 


(2 ) 推理 能 力 有 限 。 例 如 询问 现在 的 美国 总 统 是 
谁 ， 会 回答 奥巴马 或 特 朗 普 ， 但 又 能 回答 出 拜 登 是 第 
46 任 总 统 。 可 以 发 现 模型 中 事实 存在 ， 但 它 无 法 推理 
出 正确 答案 。 

(3 ) 知识 更 新 实时 性 不 够 。 一 方面 是 因为 目前 整 
个 模型 的 二 次 训练 成 本 很 高 ， 男 一 方面 知识 更 新 也 会 
带 来 知识 遗忘 。 

但 对 这 些 问题 不 必 过 于 担忧 ，ChatGPT 背后 有 着 
海量 的 资料 库 和 庞大 的 算 力 做 支撑 ， 随 着 它 与 搜索 引 
擎 的 结合 越 来 越 高 ， 对 知识 更 新 的 实时 性 问题 肯定 可 
以 得 到 解决 。 以 后 人 们 甚至 可 以 把 ChatGPT 当成 一 个 
交互 式 的 搜索 引擎 来 用 。 

总 而 言 之 ，ChatGPT 内 容 信 源 的 可 靠 性 依然 是 一 
个 大 问题 。 除 此 之 外 ， 目 前 最 核心 的 问题 还 是 ， 它 会 
以 一 种 非常 自信 的 口吻 来 编造 事实 。 因 此 ， 需 要 引入 


ChatGPT 能 够 更 好 地 适应 中 文 语言 和 语 境 ， 从 而 获得 
更 好 的 中 文 语义 理解 和 生成 能 力 ， 这 得 益 于 在 训练 数 
据 和 模型 设计 上 的 综合 考虑 和 优化 。 
2.4 ChatGPT 能 否 理 解 逻辑 本 身 

ChatGPT 可 以 识别 并 使 用 逻辑 语言 的 结构 和 形式 ， 
但 其 理解 能 力 基 于 训练 数据 和 算法 , 而 不 是 真正 的 “ 理 
解 ” 或 类 似 于 人 类 的 推理 。 可 以 根据 给 定 的 逻辑 语句 
或 问题 进行 计算 和 推理 ， 但 推理 可 能 受到 限制 或 出 现 


不 同 的 行业 专家 。 比 如 哲学 、 社 会 科学 、 艺 术 和 人 文 
学 科 的 人 士 来 参与 管理 ChatGPT 的 使 用 。 所 以 ，AI 公 
司 有 责任 让 公众 意识 到 这 些 问题 ， 同 时 ， 监 管 机 构 和 
政府 也 需要 对 这 个 系统 进行 更 多 的 重视 。 
3.ChatGPT 的 机 会 与 挑战 
3.1 对 传媒 领域 带 来 的 影响 

现在 的 ChatCPT 能 力 非常 全 面 ， 能 完成 创意 生成 、 
视频 脚本 、 活 动 文案 、 文 草 写作 、 代 码 编写 等 各 种 类 
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型 的 任务 。 但 其 实 它 还 是 更 适合 应 用 在 小 说 写作 、 剧 
本 创作 、 活 动 策 划 、 数 据 分 析 等 需要 解放 生产 力 和 提 
升 效 率 的 行业 。 但 对 某 些 领域 来 说 ChatGPT 的 应 用 会 
引起 巨大 争议 ， 其 至 会 遭 到 业界 的 “封杀 令 ”。 比 如 
说 学 术 领 域 ，ChatCPT 即使 不 需要 理解 专业 的 知识 ， 
它 也 能 生成 一 篇 专业 性 更 高 的 内 容 , 并 获得 专家 认可 。 
学 术 伦 理 的 问题 需要 得 到 更 多 的 监管 。 

就 在 两 三 年 以 前 ，AI 在 传媒 行业 的 作用 更 多 是 
辅助 内 容 生 产 ， 媒 体 的 内 容 要 有 自己 的 价值 观 。 但 现 
在 AI 技术 的 发 展 太 快 ， 数 字 人 +ChatGPT+ 多 模 态 内 
容 生成 ,已 经 能 够 奉 代 主持 人 、 记 者 、 编 辑 的 很 多 工 
作 。 从 文章 写作 、 新 闻 获 取 、 方 案 制 定 、 人 机 互动 ， 
ChatGPT 都 能 在 数秒 内 完成 ， 未 来 传媒 行业 的 人 机 高 
效 协 作 将 会 成 为 更 加 常见 的 场景 。 

从 积极 的 方向 来 说 ，ChatGPT 也 可 以 促进 媒体 产 
业 的 创新 和 进步 ， 提 高 媒体 内 容 的 产量 和 质量 ， 并 为 
用 户 提供 更 好 的 体验 和 服务 。 包 括 为 媒体 公司 提供 新 
的 技术 和 工具 ,改进 内 容 的 质量 和 生产 效率 ， 为 用 户 
提供 更 好 的 体验 。 

3.2 应 该 如 何 与 它 共 存 

对 普通 用 户 来 说 ，ChatCPT 目前 还 有 很 多 问题 。 
但 只 要 用 过 的 ChatGPT 的 人 ， 即 使 一 小 部 分 人 还 不 
认可 它 是 真正 的 AI， 但 没 人 认为 它 和 之 前 那些 “人 
工 智障 ”的 聊天 机 器 人 是 一 样 的 。 直 观 来 说 ， 人 们 会 
认为 是 AI 的 智力 提升 了 ， 但 实际 上 ChatGPT 背后 的 
GPT3.5 大 模型 ， 更 多 的 提升 在 于 “用 人 类 所 喜欢 的 方 
式 回 答 ”。 

人 类 应 该 积极 地 与 ChatGPT 共存 合作 ， 发 挥 人 工 
智能 技术 的 优势 ， 同 时 也 需要 关注 其 潜在 的 风险 和 挑 
战 ， 加 强人 工 智 能 技术 的 监管 和 管理 ， 以 及 加 强 对 人 
工 智能 技术 的 教育 和 培训 。 

人 类 和 ChatGPT 应 该 进行 合作 和 互补 ， 相 互 协作 ， 
共同 解决 一 些 现实 问题 和 挑战 。ChatCPT 可 以 为 人 类 
提供 一 些 基 础 的 服务 和 支持 ， 例 如 自动 化 生产 、 数 据 
分 析 、 预 测 和 推荐 等 。 人 类 可 以 利用 ChatGPT 的 技术 
和 工具 ， 进 行 一 些 更 高 级 别 的 创新 和 创造 。 

3.3 未 来 展望 

ChatGPT 的 热潮 带 来 的 是 人 们 对 通用 人 工 智能 发 
展 的 期 望 。 大 企业 不 一 定 能 够 获得 最 大 的 红利 ， 但 这 
是 创新 型 小 企业 一 个 千载难逢 的 机 遇 。 如 果 大 企业 不 
进行 二 次 创业 ， 那 么 就 会 失去 自己 的 优势 走 下 坡 路 。 
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总 体 来 说 ， 小 企业 的 机 会 可 能 更 多 在 应 用 层 。 大 企业 
更 多 是 要 在 基础 层 和 中 间 层 开始 创新 ， 不 然 肯 定 会 受 
到 巨大 的 挑战 。 

对 商业 圈 来 说 ， 有 可 能 带 来 新 一 轮 技术 革新 和 商 
业 模 式 章 新 ， 最 近 开 始 流行 一 句 话 : “所 有 行业 都 值 
得 用 AI 重新 再 做 一 遍 ”。 不 断 挖掘 新 的 商业 应 用 场景 ， 
让 近 几 年 陷入 应 用 瓶 贷 的 AI 领域 重新 焕发 活力 ， 相 信 
未 来 几 年 我 们 会 看 到 一 大 批 人 机 交互 类 型 的 AI 应 用 百 
花 齐 放 。 例 如 ， 微 软 已 经 开始 在 尝试 用 ChatGPT 取代 
财报 分 析 师 ,也 许 一 年 以 后 就 不 再 需要 财报 分 析 人 员 ，， 
AI 可 以 直接 分 析 海 量 的 公司 财报 数据 ， 形 成 关键 信息 
与 用 户 进 行 多 轮 互 动 。 可 能 每 个 人 都 无 法 完全 置身 事 
外 。 谁 的 适应 能 力 更 强 ， 能 快速 拥抱 这 个 趋势 ， 就 能 
抓 住 下 一 个 时 代 的 机 会 。 印 
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